美团M17团队开源Meeseeks评测集:揭秘大模型的“听话”能力 针对大模型知识推理能力与指令遵循能力存在表现差异的现象,为推进指令遵循能力的系统化研究与精准评估,美团 M17 团队推出全新评测基准 Meeseeks,并在魔搭社区、GitHub、Huggingface等开源平台上线。 评测 m17 美团m17 m17团队 meeseeks 2025-08-28 21:36 2